2025년 현재, 많은 기업이 생성형 AI를 도입하고 있지만 기대한 만큼의 성과를 내지 못하는 경우가 많습니다.
그 이유는 단순합니다. 모델의 성능 자체보다는 모델이 접근하는 데이터의 품질이 낮기 때문입니다.
엔터프라이즈 환경에서는 사내 문서, 이메일, ERP·CRM 데이터, 그리고 로그·이미지·음성과 같은 방대한 비정형 데이터가 쌓여 있습니다.
하지만 대부분은 부서별로 사일로화되어 있고, 정합성이나 최신성이 떨어지는 경우가 많습니다.
결국 AI 프로젝트의 ROI는 “얼마나 좋은 데이터를 준비했는가”에 달려 있습니다.
특히 최근에는 단순한 RAG(Retrieval-Augmented Generation)에서 더 나아가, 지식그래프 기반 RAG(KG²RAG) 접근이 주목받고 있습니다.
이 글에서는 기업의 데이터 준비성을 점검하는 방법과 함께 KG²RAG의 의미, 그리고 실제 적용 사례를 다뤄보겠습니다.
RAG란 무엇인가?
RAG는 검색(Retrieval)과 생성(Generation)을 결합한 방식입니다.
검색 단계: 사용자의 질문과 관련 있는 문서를 벡터DB에서 찾아냄
생성 단계: 검색된 문서를 기반으로 LLM이 자연어 답변 생성
예를 들어 직원이 “우리 회사의 휴가 정책은?”이라고 묻는다면, RAG는 HR 문서를 검색해 LLM이 요약한 답변을 제공합니다.
RAG의 장점
모델 자체를 수정할 필요 없이 기업 데이터를 활용 가능
최신 데이터 업데이트가 즉시 반영
특정 도메인에 특화된 지식 제공
그러나 이런 한계도 있다
검색 데이터가 부정확하면 답변도 왜곡됨
벡터DB 쿼리와 LLM 호출 비용이 계속 쌓임
데이터가 많아질수록 검색 품질이 떨어질 수 있음
KG²RAG란?
KG²RAG는 지식그래프(Knowledge Graph)를 RAG에 결합한 방식입니다.
단순히 문서를 검색하는 것이 아니라 데이터 간의 관계를 구조적으로 이해합니다.
- 전통적 RAG → “A사와 B사의 계약서” 문서를 검색
- KG²RAG → “A사가 2023년에 B사와 맺은 계약 조건”이라는 구체적 관계 지식 검색
KG²RAG의 장점
- 정확성: 단순 키워드가 아닌 관계 기반 검색
- 설명 가능성: 답변의 근거를 그래프 경로로 추적 가능
- 비용 절감: 불필요한 문서 검색과 LLM 호출을 줄임
1. 스키마화 / 테이블화 (엔티티-관계 추출)
계약 문서를 벡터로만 저장하지 않고, 엔티티 추출(Entity Extraction) 과정을 거쳐 구조화합니다.
- 엔티티: 회사명(A사, B사), 날짜(2023년), 계약 조건(예: 납품 수량, 금액, 위약 조항)
- 관계: “A사 계약 - B사 (2023년, 조건=XX)”
이렇게 추출한 정보를 테이블(DB) 또는 그래프DB에 저장합니다.
질문이 들어오면, 단순 문서 검색 전에 구조화된 엔티티-관계 데이터에서 먼저 후보를 좁힙니다.
2.벡터 + 그래프 혼합 접근 (KG²RAG 방식)
1차: 벡터 검색
→ 질문과 관련된 문서 후보를 찾음
2차: 지식그래프 쿼리
→ 문서에서 추출해둔 관계 구조를 활용, 조건(연도=2023, 회사=A사·B사)을 만족하는 노드를 탐색
3차: LLM 조합
→ 최종적으로 추출된 관계·조건을 자연어 답변으로 조립
3. 기존 벡터만 쓴다면? (제한적 방법)
계약 문서를 세분화된 chunk로 나누고, 각 chunk에 메타데이터 필드를 달아둡니다.
예: company1=A사, company2=B사, year=2023, type=계약조건
검색 시 벡터 유사도 + 메타데이터 필터링을 같이 적용합니다.
하지만 이 방식은 관계 추적보다는 단순 필터링에 가까워서, 복잡한 질문일수록 한계가 있습니다.
정리하면,
단순 벡터 검색은 “계약서 전체 문서”를 찾는 수준입니다.
테이블화/그래프화를 하면 “계약 조건”이라는 관계 단위까지 구조적으로 접근 가능해요.
그래서 KG²RAG로 가려면, 문서에서 엔티티와 관계를 추출해 그래프(DB)나 스키마 기반 저장소에 넣고, 벡터 검색과 결합하는 추가 단계가 필요합니다.
데이터 수집
- ERP, CRM, HR 등 사내 시스템 인벤토리 작성
- 문서·이미지·음성 등 비정형 데이터 확보
- 접근 권한과 보안 규정 점검
데이터 정제
- 중복 제거
- 문서와 계약서 등에 메타데이터 부여
- PDF → 텍스트, 이미지 → OCR 등 변환
그래프 설계
- 도메인 스키마 정의 (예: 고객–계약–상품–결제)
- 공통 키를 이용한 엔티티 연결
- 자동 갱신 프로세스 마련
운영 단계
- 검색 정확도, 응답 시간, 비용 모니터링
- 잘못된 응답 피드백 → 데이터와 그래프 개선
- 보안 및 권한 관리
- Discover: 사내 데이터 자산 식별
- Align: 데이터 표준화와 스키마 설계
- Refine: 품질 검증, 중복 제거, 보안 필터링
- Enable: 그래프 기반 검색 + RAG 시스템 운영
AI 도입의 성패는 결국 데이터 준비성에서 갈립니다.
아무리 뛰어난 모델도 부정확한 데이터를 바탕으로 하면 신뢰할 수 없는 결과를 내놓습니다.
RAG는 좋은 출발점이지만, 정확성과 비용 문제에 부딪힙니다.
KG²RAG는 이를 보완할 차세대 접근이지만, 그래프 설계와 데이터 거버넌스가 필수입니다.
따라서 기업이 지금 해야 할 일은 명확합니다.
- 사내 데이터 인벤토리 구축
- 데이터 표준화 및 스키마 설계
- RAG 운영 경험 축적 후 KG²RAG로 확장